home *** CD-ROM | disk | FTP | other *** search
/ The Works of John Ruskin / The Works of John Ruskin - Installation CD.iso / WorksSetup.exe / LATIN1.CPL < prev    next >
Text File  |  1995-10-02  |  12KB  |  361 lines

  1. ####################################################################
  2. #
  3. # File: latin_1.def
  4. #
  5. # Personal Library Software, July, 1993
  6. # Tom Donaldson
  7. # Function: Tokenizer definitional data for table driven tokenizer.
  8. # This file defines a basic isalnum() tokenization for the 8-bit
  9. # LATIN1 character set (upper 128 values are "European" characters).
  10. # The CplTabledRomanceTokenizer allows customization of tokenization by
  11. # editing rules that define the operation of the tokenizer.  Central
  12. # concept is "word continuation" rules, defining characters-kinds that 
  13. # CANNOT be split from each other.
  14. # History
  15. # -------
  16. #
  17. # 31aug93    tomd    Created from ctypes.def
  18. #
  19. ####################################################################
  20.  
  21.  
  22.  
  23. ####################################################################
  24. # Installation
  25. # ============
  26. # Database.def File
  27. # -----------------
  28. # To use the CplTabledRomanceTokenizer, you need this line in the .def
  29. # file for the database:
  30. # TOKENIZER = CplTabledRomanceTokenizer
  31. # Tokenizer File
  32. # --------------
  33. # This file, latin_1.def, is the rule file.  The tokenizer REQUIRES that
  34. # its definition file be named "tknztbld.def".  Therefore, you MUST copy
  35. # this file as "tknztbld.def".  The "tknztbld.def" file MUST be in the
  36. # "home directory" of the database using the tokenizer, or the "system"
  37. # directory for the CPL installation.
  38. # Note that a tknztbld.def in the database's home directory takes
  39. # precedence over a tknztbld.def in the CPL "system" directory.
  40. #
  41. ####################################################################
  42.  
  43.  
  44.  
  45.  
  46. ####################################################################
  47. #
  48. # Section 1: Character Class Definitions
  49. #
  50. ####################################################################
  51.  
  52. # The only rule needed for this C-type isalnum() style of tokenization
  53. # is a "letter" rule.  All characters that can take part in a token must
  54. # be classified as a "letter".  Such "letter" characters will be
  55. # unconditionally included in tokens, and "letter" characters will be
  56. # unconditionally considered inseparable.
  57.  
  58. # Name
  59. # ----
  60.   Letter
  61.  
  62.   EndRule
  63.  
  64.  
  65.  
  66.  
  67.  
  68.  
  69.  
  70. ####################################################################
  71. #
  72. # Section 2: Character Classification Map
  73. #
  74. ####################################################################
  75.  
  76. # -------    -----        -----------------------
  77. # Decimal    Class
  78. #  Value    Name        Comment
  79. # -------    -----        -----------------------
  80.  
  81. # Digits: Note that they are classified as Letter, which is the only
  82. # character class defined.
  83.    48        Letter        # Char '0'
  84.    49        Letter        # Char '1'
  85.    50        Letter        # Char '2'
  86.    51        Letter        # Char '3'
  87.    52        Letter        # Char '4'
  88.    53        Letter        # Char '5'
  89.    54        Letter        # Char '6'
  90.    55        Letter        # Char '7'
  91.    56        Letter        # Char '8'
  92.    57        Letter        # Char '9'
  93.  
  94. # Upper case letters:
  95.    65        Letter        # Char 'A'
  96.    66        Letter        # Char 'B'
  97.    67        Letter        # Char 'C'
  98.    68        Letter        # Char 'D'
  99.    69        Letter        # Char 'E'
  100.    70        Letter        # Char 'F'
  101.    71        Letter        # Char 'G'
  102.    72        Letter        # Char 'H'
  103.    73        Letter        # Char 'I'
  104.    74        Letter        # Char 'J'
  105.    75        Letter        # Char 'K'
  106.    76        Letter        # Char 'L'
  107.    77        Letter        # Char 'M'
  108.    78        Letter        # Char 'N'
  109.    79        Letter        # Char 'O'
  110.    80        Letter        # Char 'P'
  111.    81        Letter        # Char 'Q'
  112.    82        Letter        # Char 'R'
  113.    83        Letter        # Char 'S'
  114.    84        Letter        # Char 'T'
  115.    85        Letter        # Char 'U'
  116.    86        Letter        # Char 'V'
  117.    87        Letter        # Char 'W'
  118.    88        Letter        # Char 'X'
  119.    89        Letter        # Char 'Y'
  120.    90        Letter        # Char 'Z'
  121.  
  122. # Lower case letters:
  123.    97        Letter        # Char 'a'
  124.    98        Letter        # Char 'b'
  125.    99        Letter        # Char 'c'
  126.    100        Letter        # Char 'd'
  127.    101        Letter        # Char 'e'
  128.    102        Letter        # Char 'f'
  129.    103        Letter        # Char 'g'
  130.    104        Letter        # Char 'h'
  131.    105        Letter        # Char 'i'
  132.    106        Letter        # Char 'j'
  133.    107        Letter        # Char 'k'
  134.    108        Letter        # Char 'l'
  135.    109        Letter        # Char 'm'
  136.    110        Letter        # Char 'n'
  137.    111        Letter        # Char 'o'
  138.    112        Letter        # Char 'p'
  139.    113        Letter        # Char 'q'
  140.    114        Letter        # Char 'r'
  141.    115        Letter        # Char 's'
  142.    116        Letter        # Char 't'
  143.    117        Letter        # Char 'u'
  144.    118        Letter        # Char 'v'
  145.    119        Letter        # Char 'w'
  146.    120        Letter        # Char 'x'
  147.    121        Letter        # Char 'y'
  148.    122        Letter        # Char 'z'
  149.  
  150. # LATIN1 characters.
  151. #
  152. # Comment column is the Unicode name for the character.
  153. #
  154. # RemovedC1 control codes.
  155. #
  156. # Begin Latin-1 non-breaking space character -- is a letter
  157.   160        Letter        # NON-BREAKING SPACE
  158. # Uppercase letters
  159.   192        Letter        # LATIN CAPITAL LETTER A GRAVE
  160.   193        Letter        # LATIN CAPITAL LETTER A ACUTE
  161.   194        Letter        # LATIN CAPITAL LETTER A CIRCUMFLEX
  162.   195        Letter        # LATIN CAPITAL LETTER A TILDE
  163.   196        Letter        # LATIN CAPITAL LETTER A DIAERESIS
  164.   197        Letter        # LATIN CAPITAL LETTER A RING
  165.   198        Letter        # LATIN CAPITAL LETTER A E
  166.   199        Letter        # LATIN CAPITAL LETTER C CEDILLA
  167.   200        Letter        # LATIN CAPITAL LETTER E GRAVE
  168.   201        Letter        # LATIN CAPITAL LETTER E ACUTE
  169.   202        Letter        # LATIN CAPITAL LETTER E CIRCUMFLEX
  170.   203        Letter        # LATIN CAPITAL LETTER E DIAERESIS
  171.   204        Letter        # LATIN CAPITAL LETTER I GRAVE
  172.   205        Letter        # LATIN CAPITAL LETTER I ACUTE
  173.   206        Letter        # LATIN CAPITAL LETTER I CIRCUMFLEX
  174.   207        Letter        # LATIN CAPITAL LETTER I DIAERESIS
  175.   208        Letter        # LATIN CAPITAL LETTER ETH
  176.   209        Letter        # LATIN CAPITAL LETTER N TILDE
  177.   210        Letter        # LATIN CAPITAL LETTER O GRAVE
  178.   211        Letter        # LATIN CAPITAL LETTER O ACUTE
  179.   212        Letter        # LATIN CAPITAL LETTER O CIRCUMFLEX
  180.   213        Letter        # LATIN CAPITAL LETTER O TILDE
  181.   214        Letter        # LATIN CAPITAL LETTER O DIAERESIS
  182. # Removed multiplication sign
  183.   216        Letter        # LATIN CAPITAL LETTER O SLASH
  184.   217        Letter        # LATIN CAPITAL LETTER U GRAVE
  185.   218        Letter        # LATIN CAPITAL LETTER U ACUTE
  186.   219        Letter        # LATIN CAPITAL LETTER U CIRCUMFLEX
  187.   220        Letter        # LATIN CAPITAL LETTER U DIAERESIS
  188.   221        Letter        # LATIN CAPITAL LETTER Y ACUTE
  189.   222        Letter        # LATIN CAPITAL LETTER THORN
  190.  
  191. # Lowercase letters
  192.   223        Letter        # LATIN SMALL LETTER SHARP S
  193.   224        Letter        # LATIN SMALL LETTER A GRAVE
  194.   225        Letter        # LATIN SMALL LETTER A ACUTE
  195.   226        Letter        # LATIN SMALL LETTER A CIRCUMFLEX
  196.   227        Letter        # LATIN SMALL LETTER A TILDE
  197.   228        Letter        # LATIN SMALL LETTER A DIAERESIS
  198.   229        Letter        # LATIN SMALL LETTER A RING
  199.   230        Letter        # LATIN SMALL LETTER A E
  200.   231        Letter        # LATIN SMALL LETTER C CEDILLA
  201.   232        Letter        # LATIN SMALL LETTER E GRAVE
  202.   233        Letter        # LATIN SMALL LETTER E ACUTE
  203.   234        Letter        # LATIN SMALL LETTER E CIRCUMFLEX
  204.   235        Letter        # LATIN SMALL LETTER E DIAERESIS
  205.   236        Letter        # LATIN SMALL LETTER I GRAVE
  206.   237        Letter        # LATIN SMALL LETTER I ACUTE
  207.   238        Letter        # LATIN SMALL LETTER I CIRCUMFLEX
  208.   239        Letter        # LATIN SMALL LETTER I DIAERESIS
  209.   240        Letter        # LATIN SMALL LETTER ETH
  210.   241        Letter        # LATIN SMALL LETTER N TILDE
  211.   242        Letter        # LATIN SMALL LETTER O GRAVE
  212.   243        Letter        # LATIN SMALL LETTER O ACUTE
  213.   244        Letter        # LATIN SMALL LETTER O CIRCUMFLEX
  214.   245        Letter        # LATIN SMALL LETTER O TILDE
  215.   246        Letter        # LATIN SMALL LETTER O DIAERESIS
  216. # Removed division sign
  217.   248        Letter        # LATIN SMALL LETTER O SLASH
  218.   249        Letter        # LATIN SMALL LETTER U GRAVE
  219.   250        Letter        # LATIN SMALL LETTER U ACUTE
  220.   251        Letter        # LATIN SMALL LETTER U CIRCUMFLEX
  221.   252        Letter        # LATIN SMALL LETTER U DIAERESIS
  222.   253        Letter        # LATIN SMALL LETTER Y ACUTE
  223.   254        Letter        # LATIN SMALL LETTER THORN
  224.   255        Letter        # LATIN SMALL LETTER Y DIAERESIS
  225. # ---        -----        -----------------------
  226.    -1        EndOfDefs    # Not loaded.  Just marks end of map definition.
  227. # ---        -----        -----------------------
  228.  
  229.  
  230.    
  231.  
  232.  
  233.  
  234.  
  235. ####################################################################
  236. #
  237. # Section 3: Word Continuation Rules
  238. #
  239. ####################################################################
  240.  
  241. # There is only one rule.  Letter characters cannot be separated from
  242. # each other, ever, and only Letter characters can be in tokens.
  243.  
  244. Letter    *
  245.  
  246. EndRule
  247.  
  248.  
  249.  
  250.  
  251.  
  252.  
  253.  
  254.  
  255. ####################################################################
  256. #
  257. # Section 4: Canonization Map
  258. #
  259. ####################################################################
  260.  
  261. # -------    -------        -----------
  262. #  Input    Output
  263. # Decimal    Decimal
  264. #  Char         Char
  265. #  Value     Value        Comment
  266. # -------    -------        -----------
  267. #
  268. # Map the characters a-z to the "canonical" characters A-Z.  That is,
  269. # all letters will be upper cased.
  270.    97        65        # Char 'a' canonizes to 'A'
  271.    98        66        # Char 'b' canonizes to 'B'
  272.    99        67        # Char 'c' canonizes to 'C'
  273.   100        68        # Char 'd' canonizes to 'D'
  274.   101        69        # Char 'e' canonizes to 'E'
  275.   102        70        # Char 'f' canonizes to 'F'
  276.   103        71        # Char 'g' canonizes to 'G'
  277.   104        72        # Char 'h' canonizes to 'H'
  278.   105        73        # Char 'i' canonizes to 'I'
  279.   106        74        # Char 'j' canonizes to 'J'
  280.   107        75        # Char 'k' canonizes to 'K'
  281.   108        76        # Char 'l' canonizes to 'L'
  282.   109        77        # Char 'm' canonizes to 'M'
  283.   110        78        # Char 'n' canonizes to 'N'
  284.   111        79        # Char 'o' canonizes to 'O'
  285.   112        80        # Char 'p' canonizes to 'P'
  286.   113        81        # Char 'q' canonizes to 'Q'
  287.   114        82        # Char 'r' canonizes to 'R'
  288.   115        83        # Char 's' canonizes to 'S'
  289.   116        84        # Char 't' canonizes to 'T'
  290.   117        85        # Char 'u' canonizes to 'U'
  291.   118        86        # Char 'v' canonizes to 'V'
  292.   119        87        # Char 'w' canonizes to 'W'
  293.   120        88        # Char 'x' canonizes to 'X'
  294.   121        89        # Char 'y' canonizes to 'Y'
  295.   122        90        # Char 'z' canonizes to 'Z'
  296.  
  297. # How to canonize this one?
  298. #  223        223        # LATIN SMALL LETTER SHARP S --> canonize to what???
  299.                 # Correct German uppercase is "SS".
  300.                 # We must stick with 8-bits for now,
  301.                 # so cannot do the "correct" thing.
  302.  
  303.   224        192        # LATIN SMALL LETTER A GRAVE --> LATIN CAPITAL LETTER A GRAVE
  304.   225        193        # LATIN SMALL LETTER A ACUTE --> LATIN CAPITAL LETTER A ACUTE
  305.   226        194        # LATIN SMALL LETTER A CIRCUMFLEX --> LATIN CAPITAL LETTER A CIRCUMFLEX
  306.   227        195        # LATIN SMALL LETTER A TILDE --> LATIN CAPITAL LETTER A TILDE
  307.   228        196        # LATIN SMALL LETTER A DIAERESIS --> LATIN CAPITAL LETTER A DIAERESIS
  308.   229        197        # LATIN SMALL LETTER A RING --> LATIN CAPITAL LETTER A RING
  309.   230        198        # LATIN SMALL LETTER A E --> LATIN CAPITAL LETTER A E
  310.   231        199        # LATIN SMALL LETTER C CEDILLA --> LATIN CAPITAL LETTER C CEDILLA
  311.   232        200        # LATIN SMALL LETTER E GRAVE --> LATIN CAPITAL LETTER E GRAVE
  312.   233        201        # LATIN SMALL LETTER E ACUTE --> LATIN CAPITAL LETTER E ACUTE
  313.   234        202        # LATIN SMALL LETTER E CIRCUMFLEX --> LATIN CAPITAL LETTER E CIRCUMFLEX
  314.   235        203        # LATIN SMALL LETTER E DIAERESIS --> LATIN CAPITAL LETTER E DIAERESIS
  315.   236        204        # LATIN SMALL LETTER I GRAVE --> LATIN CAPITAL LETTER I GRAVE
  316.   237        205        # LATIN SMALL LETTER I ACUTE --> LATIN CAPITAL LETTER I ACUTE
  317.   238        206        # LATIN SMALL LETTER I CIRCUMFLEX --> LATIN CAPITAL LETTER I CIRCUMFLEX
  318.   239        207        # LATIN SMALL LETTER I DIAERESIS --> LATIN CAPITAL LETTER I DIAERESIS
  319.   240        208        # LATIN SMALL LETTER ETH --> LATIN CAPITAL LETTER ETH
  320.   241        209        # LATIN SMALL LETTER N TILDE --> LATIN CAPITAL LETTER N TILDE
  321.   242        210        # LATIN SMALL LETTER O GRAVE --> LATIN CAPITAL LETTER O GRAVE
  322.   243        211        # LATIN SMALL LETTER O ACUTE --> LATIN CAPITAL LETTER O ACUTE
  323.   244        212        # LATIN SMALL LETTER O CIRCUMFLEX --> LATIN CAPITAL LETTER O CIRCUMFLEX
  324.   245        213        # LATIN SMALL LETTER O TILDE --> LATIN CAPITAL LETTER O TILDE
  325.   246        214        # LATIN SMALL LETTER O DIAERESIS --> LATIN CAPITAL LETTER O DIAERESIS
  326.   248        216        # LATIN SMALL LETTER O SLASH --> LATIN CAPITAL LETTER O SLASH
  327.   249        217        # LATIN SMALL LETTER U GRAVE --> LATIN CAPITAL LETTER U GRAVE
  328.   250        218        # LATIN SMALL LETTER U ACUTE --> LATIN CAPITAL LETTER U ACUTE
  329.   251        219        # LATIN SMALL LETTER U CIRCUMFLEX --> LATIN CAPITAL LETTER U CIRCUMFLEX
  330.   252        220        # LATIN SMALL LETTER U DIAERESIS --> LATIN CAPITAL LETTER U DIAERESIS
  331.   253        221        # LATIN SMALL LETTER Y ACUTE --> LATIN CAPITAL LETTER Y ACUTE
  332.   254        222        # LATIN SMALL LETTER THORN --> LATIN CAPITAL LETTER THORN
  333.  
  334. # How to canonize this one?
  335. #  255        255        # LATIN SMALL LETTER Y DIAERESIS --> canonize to what?????
  336.  
  337. # ---        -----        -----------------------
  338.    -1        -1        # Not loaded.  Just marks end of map definition.
  339. # ---        -----        -----------------------
  340.  
  341. ####################################################################
  342. #
  343. # End Of File: latin_1.def
  344. #
  345. ####################################################################
  346.